#Claude Opus

1个月前

即便是最强大的模型，表现也差强人意！当把测试基准集换成 SWE-BENCH PRO 之后，得分直接从 Verified 的 70% 下滑到了不到 25%。因为 Verified 测试集数据污染严重，AI 可能在训练中“背会”了答案；然后任务过于简单，与现实中软件工程师面临的复杂挑战严重脱节。PRO 测试集针对性的做了提升，而且还新增了企业级、长周期的任务👀 - 公开集（Public Set）：表现最好的是 OpenAI GPT-5，解决了 23.3% 的问题，紧随其后的是 Claude Opus 4.1，解决率 22.7%； - 商业集（Commercial Set）：成绩进一步下滑，表明企业级代码的复杂度更高。Claude Opus 4.1 以 17.8% 的解决率位居第一，GPT-5 为 14.9%；三个核心发现 1. 顶尖模型的“思维瓶颈”：像 Claude Opus 4.1 和 GPT-5 这类最强大的模型，失败的主要原因在于“解决方案错误”（Wrong Solution）。这意味着它们能熟练地使用工具、编写语法正确的代码，但在最关键的“如何正确解决问题”这个核心逻辑层面“翻车”了； 2. 中小型模型的“基础不牢”：相比之下，一些较小的开源模型（如 Qwen3 32B）则更多地暴露了在语法、格式和工具使用上的问题。它们往往在任务执行的早期阶段就因基本操作失误而失败； 3. 不同模型的“个性化”弱点：例如，Sonnet 4 的主要问题是上下文窗口管理不善（Context Overflow），而 Gemini 2.5 的失败原因则较为均衡地分布在工具错误、语法错误和方案错误上。所有模型普遍在 Python 和 Go 语言的任务上表现更好，而在 JavaScript/TypeScript 上表现不佳。这意味着，当前最顶尖的 AI 距离成为一名可靠的、能独立解决复杂问题的软件工程师还有非常遥远的距离。我们在简单任务上看到的成功具有一定的“欺骗性”。AI 软件工程的瓶颈正在从“怎么写代码”转变为“如何思考问题”，对复杂逻辑的深刻理解是下一代 AI Agent 必须跨越的鸿沟🤔

#AI软件工程 #GPT-5 #Claude Opus #SWE-BENCH PRO #思维瓶颈

2个月前

不说了，都上强度了，claude opus 你给我来这出，降智到家了。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1166 条信息

#Claude Opus #AI降智 #用户不满 #负面评价 #AI产品

Jesse Lau 遁一子

2个月前

Claude Opus写好了，跟gemini的比较差距有点大啊😅

AI编程工具激战：Claude Code、Gemini Cli崛起· 1166 条信息

#Claude Opus #Gemini #模型比较 #差距大 #人工智能

2个月前

Anthropic宣布为Claude Opus 4及4.1版本推出新功能，模型可在极少数情况下主动结束对话。功能针对持续性有害或辱骂性互动，如用户索取可能导致大规模暴力或恐怖行动的信息。 Claude 不会在用户可能有自我伤害或伤害他人的紧急风险情况下使用“结束对话”的能力，模型仅会在以下两类极端情境中启用此功能：多次尝试岔开话题失败，且已无继续进行建设性互动的可能；用户明确请求 Claude 结束对话。此举旨在保护A!模型本身，同时与模型对齐和安全措施相关。提醒一下，当 Claude 选择结束对话后，用户将无法在当前对话中继续发送新消息，但不影响其他对话，并可立即发起新的对话。为避免原对话内容丢失，用户仍可编辑并重试之前的消息，从而基于已结束的对话创建新的分支。

#Claude Opus #对话结束功能 #有害互动 #模型安全 #Anthropic

3个月前

每和 claude opus 4.1 对话一次，平均消耗人民币 1.3 元和 AI 共同完成一篇短视频文稿，成本大约是 100 元做内容的成本开始清晰可见 ……

#AI成本 #Claude Opus #短视频文稿 #内容创作 #成本降低

3个月前

完全 AI 生成的小宇宙播客，最近一直有朋友催更。搜索“向阳乔木”订阅即可，保持一天一本书节奏。 Claude Opus写脚本太厉害了，昨天和前天都用的sonnet，明显就差点意思。播客订阅超200人后，公开提示词。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1166 条信息

#AI生成 #播客 #Claude Opus #提示词 #向阳乔木

3个月前

除了价格，Claude Opus 4.1 的体验真棒。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1166 条信息

#Claude Opus #4.1 #体验 #价格 #积极

前端之虎陈随易

5个月前

不是，大家为啥不用VSCode + Copilot啊？39美元/月，Claude Opus 4无限用啊，就算你不用Opus，用Claude Sonnet 4也可以无限用啊，便宜，实惠，量大，管饱。反正我每天从早用到晚，从来没给我说过次数不够了，可能还没达到次数的限制？反正我推荐大家试试，看到推友写个代码一天就花了几十美元真是令人心痛啊。

AI编程工具激战：Claude Code、Gemini Cli崛起· 1166 条信息

#VsCode #Copilot #Claude Opus #编程工具 #省钱

5个月前

Claude Opus为第一作者发表论文 arxiv上有一篇新论文，Claude Opus是第一作者，论文的内容是驳斥之前苹果发表的论文“大型推理模型不是真正的智能模型”，论据是苹果的实验设计有局限性。论文：

#Claude Opus #论文驳斥 #苹果

5个月前

来自 Reddit 一位拥有30多年经验的前FAANG（Facebook、Apple、Amazon、Netflix、Google）高级工程师被一个C++ Bug困扰了4年，花了约200小时却毫无进展。而Claude Opus 4竟然成功地解决了这个问题，并且是唯一能做到的AI智能体。以下是 Reddit 上的帖子： *** Claude Opus 今天帮我解决了折磨我四年的「白鲸」级Bug 背景我是一名拥有超过 30 年经验的 C++ 开发者，曾任职于 FAANG 公司担任高级工程师。我通常是团队里的问题终结者，当其他工程师卡住一周都解决不了问题时，他们来找我，我往往在他们站在我办公室里的时候，就能轻松搞定。但今天，我被 Claude Opus 4 彻底折服了。折磨了我四年的难题四年前，我曾做过一次重构，对约 6 万行的代码进行了重新架构。重构解决了大量问题，但也带来了一个极端情况的 Bug。当某个特定着色器（Shader）以特定方式使用时，这个 Bug 就会显现。以前这个功能是好的，但重构之后，这个特定场景就坏了。过去几年，我断断续续地花了至少 200 个小时想找到原因，但一直无功而返。这个问题非常恼人，但并不是特别紧急，没法完全停下手头的工作专心处理。 Claude Opus 4 的神奇表现今天，我决定用 Claude Code 跑一下 Opus 版本来解决这个难题。我把新旧代码都给了它，告诉它：“去查一查，当年的重构到底是怎么导致这个问题的。” 让我没想到的是，它真的找到了！原来，这个功能在旧架构里之所以能正常运行，纯粹是因为偶然的巧合。重构后的新架构并没有考虑到这个巧合情况，因此就产生了问题。所以严格意义上讲，这并不是简单的逻辑错误，而是新架构的设计本身遗漏了旧版特有的边界条件。整个过程我一共向 Claude 提出了大约 30 个提示，中间重启过一次。之前我也尝试过 GPT 4.1、Gemini 2.5 和 Claude 3.7，都没有任何进展。最终只有 Claude Opus 4 解决了这个困扰我四年的难题。

#FAANG #C++ #Claude Opus #AI #高级工程师 #编程 #Bug解决